[Day7]爬蟲的常用工具與框架

2024 iThome 鐵人賽

DAY 2

自我挑戰組

30天認識爬蟲系列第 7 篇

16th鐵人賽

eyeyeyeye

2024-09-22 23:50:55

347 瀏覽

分享至

今天是第七天，來介紹一下爬蟲的時候經常會使用到哪些工具吧!

我們在爬蟲的時候不外乎會常常用到Beautiful Soup、Scrapy及Selenium等工具，而Beautiful Soup是一個Python外部函式庫，他的功能主要包括解析HTML、XML文件，並將分析的結果轉換成網頁標籤樹的型態、並且可以修復含有未閉合標籤等錯誤的文件（此種文件常被稱為tag soup）。Beautiful Soup這個擴充包為待解析的頁面建立一棵樹，讓我們可以很方便的爬取其中的資料，通常用來收集網路資料，是網路爬蟲的好工具之一。

Scrapy是一個用Python編寫的自由且開源的網絡爬蟲框架。它設計的初衷是用於爬取網絡資料，但也可以作為使用API來獲取數據或作為生成目的的網絡爬蟲。Scrapy圍繞蜘蛛建構，蜘蛛是提供一套指令的自包含的爬網程序（crawlers）。遵循其他如Django框架的一次且僅一次精神，並且允許開發者重用代碼將便於構建和拓展大型的爬網項目。

最後是Selenium，Selenium是一個開源的自動化測試工具，主要用於web應用程式的自動化測試。可以模擬使用者在網頁上的操作，如點擊按鈕、輸入文字、選擇選項等等，並自動化這些任務。它支援多種瀏覽器和多種程式語言，如Java、Python、C#等，因此非常靈活且廣泛應用於測試環境。它為web瀏覽器的自動化提供了各種工具和依賴包。另外，Selenium也為W3C WebDriver specification（頁面存檔備份，存於網際網路檔案館）提供了基礎設施。